AI资讯新闻榜单内容搜索-Gemini

AI助手现在认路了：谷歌地图直接「长」进大脑

谷歌DeepMind刚刚为Gemini API放了一个大招：内置工具和自定义函数终于可以在同一次调用里混着用了。再加上跨工具的「上下文环流」和Google Maps原生接入，Agent开发的编排噩梦正在终结。

来自主题: AI资讯

7141 点击 2026-03-19 15:23

从多模态大模型中「拆」出音频向量模型

Google 最近发了 Gemini Embedding 2，他们第一个原生多模态向量模型。文本、图像、视频、音频、文档，全部映射到同一个 3072 维向量空间。这是 Omni Embedding（全模态向量模型）的大趋势：一个架构吃下所有模态，从 jina-embeddings-v4 到 Omni-Embed-Nemotron 再到 Omni-5，大家都在往这个方向收敛。

来自主题: AI技术研报

5950 点击 2026-03-16 15:06

Z Waves丨中科大天才、林俊旸潜在接班人、Gemini 3 核心推手，通义千问迎来「周浩时刻」

在大模型狂飙突进的叙事里，算力是入场券，而那些曾亲手拆解过全球顶级模型“黑盒”、并见证其从阵痛到翻盘的核心人才，才是真正的胜负手。

来自主题: AI资讯

9615 点击 2026-03-13 10:51

谷歌AGI底座降临！首个原生全模态嵌入模型上线，已实现全模态SOTA

谷歌发布首个原生全模态 Embedding 模型 Gemini Embedding 2！它将文本、图、音视频及 PDF 无损融于统一向量空间，实现跨越五大模态的直接检索。这极大降低了架构成本，赋予了 AI 真正连贯的「记忆」，是重塑 AI 基建的里程碑。

来自主题: AI资讯

9428 点击 2026-03-12 10:21

让龙虾看懂屏幕！谷歌多模态新成果，文本图像视频音频进同一空间

刚刚，谷歌发布了首个原生多模态（Multimodal）嵌入模型——Gemini Embedding 2。这次模型最大的变化在于：把文本、图像、视频、音频和文档，全部映射进同一个统一的嵌入空间。

来自主题: AI资讯

7050 点击 2026-03-11 16:59

ICLR 2026｜原生多模态推理新范式ThinkMorph ，让文字与图像在统一架构中共同演化

NUS、ZJU、UW、Stanford、CUHK 联合提出「ThinkMorph」，主张让文字与图像在统一架构里「原生协作」、「共同演化」，而不是像当下大多数多模态模型那样，看完图像就闭上眼睛，后续完全靠文字链条推进。仅用 2.4 万条数据微调 7B 统一模型，视觉推理平均提升 34.74%，多项任务比肩甚至超越 GPT-4o 和 Gemini 2.5 Flash。

来自主题: AI技术研报

7025 点击 2026-03-11 09:22